Telegram Group & Telegram Channel
Что вы знаете о проблемах взрывающегося и затухающего градиента?

▪️Взрывающийся градиент

Эта проблема возникает, когда градиенты функции потерь начинают расти экспоненциально во время обучения. В результате это приводит к тому, что веса становятся огромными и приходят в NaN. Конечно, сеть с такими параметрами не может моделировать зависимости корректно.

Почему это происходит?

Если говорить о математических причинах, то это случается, когда произведение частных производных функции активации и весов на каждом слое превышает единицу. Если матрица весов W имеет большое собственное значение, то при умножении этого значения на градиенты потерь происходит экспоненциальный рост величины градиентов.

▪️Исчезающий градиент

Это проблема, обратная предыдущей. Градиенты функции потерь наоборот становятся слишком маленькими, близкими к нулю, и веса нейросети в принципе перестают обновляться. При таких условиях качество работы модели не растёт.

Почему это происходит?

Исчезающий градиент возникает, когда произведение частных производных функции активации и весов на каждом слое меньше единицы. В этом случае градиенты уменьшаются экспоненциально по мере прохождения через каждый слой сети. В конечном итоге, градиенты становятся настолько малыми, что обновления весов практически не происходят.

#машинное_обучение
9🔥5👍1



tg-me.com/ds_interview_lib/437
Create:
Last Update:

Что вы знаете о проблемах взрывающегося и затухающего градиента?

▪️Взрывающийся градиент

Эта проблема возникает, когда градиенты функции потерь начинают расти экспоненциально во время обучения. В результате это приводит к тому, что веса становятся огромными и приходят в NaN. Конечно, сеть с такими параметрами не может моделировать зависимости корректно.

Почему это происходит?

Если говорить о математических причинах, то это случается, когда произведение частных производных функции активации и весов на каждом слое превышает единицу. Если матрица весов W имеет большое собственное значение, то при умножении этого значения на градиенты потерь происходит экспоненциальный рост величины градиентов.

▪️Исчезающий градиент

Это проблема, обратная предыдущей. Градиенты функции потерь наоборот становятся слишком маленькими, близкими к нулю, и веса нейросети в принципе перестают обновляться. При таких условиях качество работы модели не растёт.

Почему это происходит?

Исчезающий градиент возникает, когда произведение частных производных функции активации и весов на каждом слое меньше единицы. В этом случае градиенты уменьшаются экспоненциально по мере прохождения через каждый слой сети. В конечном итоге, градиенты становятся настолько малыми, что обновления весов практически не происходят.

#машинное_обучение

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/437

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

What is Telegram?

Telegram’s stand out feature is its encryption scheme that keeps messages and media secure in transit. The scheme is known as MTProto and is based on 256-bit AES encryption, RSA encryption, and Diffie-Hellman key exchange. The result of this complicated and technical-sounding jargon? A messaging service that claims to keep your data safe.Why do we say claims? When dealing with security, you always want to leave room for scrutiny, and a few cryptography experts have criticized the system. Overall, any level of encryption is better than none, but a level of discretion should always be observed with any online connected system, even Telegram.

A Telegram spokesman declined to comment on the bond issue or the amount of the debt the company has due. The spokesman said Telegram’s equipment and bandwidth costs are growing because it has consistently posted more than 40% year-to-year growth in users.

Библиотека собеса по Data Science | вопросы с собеседований from hk


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA